深度学习 - 智狐AI导航

PhotoMaker

PhotoMaker V2是腾讯推出的一款AI图像生成框架，能够快速生成逼真的人物照片。它在角色的一致性和可控性上取得了显著进步，用户可以通过文本指令进行精准控制。该工具利用深度学习技术和生成对抗网络（GANs），能够将文本描述转化为图像，并通过集成脚本增强生成过程的个性化和可控性。PhotoMaker V2广泛应用于游戏开发、电影制作、广告、社交媒体、艺术创作和教育等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 876 浏览

Llama 3

Llama 3是Meta公司开发的一款最新大型语言模型，提供了8B和70B两种参数规模的模型。它通过增加参数规模、扩大训练数据集、优化模型架构和增强安全性等功能，显著提升了自然语言处理能力，适用于编程、问题解决、翻译和对话生成等多种应用场景。Llama 3在多个基准测试中表现出色，并且通过指令微调进一步增强了特定任务的表现。

AI项目与工具 2025年06月12日 40 点赞 0 评论 670 浏览

EchoMimic是一款由阿里蚂蚁集团开发的AI数字人开源项目，通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。该工具支持音频同步动画、面部特征融合、多模态学习和跨语言能力，适用于娱乐、教育和虚拟现实等领域。其独特的技术原理包括音频特征提取、面部标志点定位、面部动画生成和多模态学习，使用了卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等深度学习模型，实现

AI项目与工具 2025年06月12日 79 点赞 0 评论 952 浏览

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型，支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术，支持多阶段训练和自动及人工评估，适用于创意视频制作、教育材料、广告、游戏、电影编

AI项目与工具 2025年06月12日 55 点赞 0 评论 527 浏览

EasyAnimate

EasyAnimate是一款由阿里巴巴研发的AI视频生成工具，支持通过文本或图片生成视频。用户可以上传图片作为视频的起始和结束画面，增加视频编辑的灵活性。该工具最长可生成1分钟的视频，适用于内容创作、教育、营销等多个领域。用户可以通过简单的操作快速生成高质量的视频内容。

AI项目与工具 2025年06月12日 24 点赞 0 评论 692 浏览

FancyVideo

FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型，采用创新的跨帧文本引导模块（CTGM）。它能够根据文本描述生成连贯且动态丰富的视频内容，支持高分辨率视频输出，并保持时间上的连贯性。作为开源项目，FancyVideo提供了详尽的文档和代码库，便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。

AI项目与工具 2025年06月12日 28 点赞 0 评论 649 浏览

MetaHuman

MetaHuman-Stream 是一种先进的实时交互流式AI数字人技术，集成了多种尖端模型，支持声音克隆和深度学习算法，确保对话流畅自然。通过全身视频整合和低延迟通信技术，提供沉浸式的用户体验，适用于在线教育、客户服务、游戏和新闻等多个领域。其主要功能包括多模型支持、声音克隆、对话处理能力和全身视频整合。

AI项目与工具 2025年06月12日 91 点赞 0 评论 655 浏览

RAGFlow

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，通过深度学习模型解析和理解文档内容，并增强生成能力。它提供了多种功能，包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

AI项目与工具 2025年06月12日 10 点赞 0 评论 541 浏览

MooER

MooER是一款基于国产全功能GPU训练的开源音频理解大模型，由摩尔线程推出。它能够进行中文和英文的语音识别，并具备中译英的语音翻译能力。MooER在Covost2中译英测试集中取得25.2的BLEU分数，接近工业级标准。其主要功能包括语音识别、语音翻译、高效率训练以及开源模型。该模型采用深度学习架构和端到端训练模式，具有强大的多语言处理能力和广泛的适用性。

AI项目与工具 2025年06月12日 41 点赞 0 评论 960 浏览

Lingo

Lingo是一款由西湖心辰开发的国内首个端到端语音大模型，具备实时交互、语音理解、多风格语音表达、情绪价值等功能。Lingo在人机对话的自然流畅度和情绪感知方面表现出色，适用于智能家居、客户服务、教育、医疗等多个领域。其核心技术包括端到端设计、深度学习算法和自然语言处理，旨在提供高质量的语音交互体验。

AI项目与工具 2025年06月12日 22 点赞 0 评论 959 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期